基于AIGC的数据资产盘点研究与实践思考
引 言
近年来,随着信息技术的快速发展,数据作为新的生产要素在各行各业中扮演着越来越重要的角色。银行4.0时代,数据资产已成为银行数字化转型的重要基石,而数据资产盘点作为银行数据资产运营的关键环节正逐步成为行业关注的焦点。
目前,商业银行数据资产盘点大多采用“自上而下”或“自下而上”方式开展,存在人工标注工作量大、难持续等问题。随着智能化技术的发展,部分银行已开始研究利用AI技术解决人工标注的难题,但考虑到每个标注分类至少需要1000条样本标注数据,一个简单的十个二分类模型的训练就需要10万条以上标注样本,人工标注的工作量问题仍然没有完全解决。同时,训练好的模型如何适配不断增长的数据也是一大挑战。不过AIGC(人工智能内容生成)技术的兴起,给智能标注课题带来了新的方向。因此,本文旨在探索基于AIGC的数据资产盘点应用,希望能够为商业银行智能化数据资产盘点提供一些新的思路。
什么是AIGC?
AIGC是“Artificial Intelligence Generated Content”的缩写,即利用人工智能技术来生成内容的一种新型技术。AIGC也被认为是继UGC(专家生成内容)、PGC(用户生成内容)之后的新型内容生产方式。AI绘画、AI写作、AI编程等都属于AIGC的分支。其实,AIGC技术的基本原理就是利用AI技术(自然语言处理、机器学习等)对大量的语言数据进行分析、学习和模拟,从而实现对自然语言的理解和生成。目前,AIGC的技术大致分为“基于规则的AIGC技术”和“基于机器学习的AIGC技术”两大类。
1.基于规则的AIGC技术
基于规则的AIGC技术是指利用人工智能技术中的专家系统和知识库,通过编写一系列的规则来实现对内容的生成,这种技术的优点是AI生成内容比较准确,但是需要充足的人力和时间来编写规则。适用于数量级适中,业务规则相对具体、可归纳的专业化场景。
基于机器学习的AIGC技术是指利用人工智能技术中的机器学习和深度学习算法,通过对大量的语言数据进行学习和模拟,从而使人工智能创造新的理解和内容。这种技术的优点是生成的内容比较自然、流畅,无需编写规则,但是需要大量的语料和计算资源,成本比较高。适用于数据量巨大、业务规则复杂、人力难以归纳总结的复杂性场景。
总的来说,虽然基于规则或机器学习的AIGC技术各有优缺点,但回归到商业银行的实际应用场景中来考虑,由于当下银行的数据资产基本固定于一个相对稳定的数据量级范围,规则也与银行业务息息相关,所以基于规则的AIGC技术更合适商业银行开展数据资产智能化盘点。本文后续的研究也将基于此技术开展。
智能化数据资产盘点研究
光大银行从2019年启动数据资产管理工作,已实现对全行300+系统的登记,沉淀数据资产36万+,数据资产数据项500万+,虽然已建立部分专家业务场景,但因工作量大等问题并未实现360°全场景的数据资产盘点。因此,本文的最终目标是研究利用AIGC技术实现对全量数据资产360°的智能化标注分类。但是,考虑到实际操作的复杂性和时间、成本等因素,现提出三个假设对目标进行简化,专注研究方案可行性。
假设1:数据集为5万条数据资产数据项集合
假设2:使用FS-LDM十大主题(见图1)当做不互斥标签分类体系
假设3:每次分类所需的标注样本限制为100条
结合上述假设,那么本文的研究目标即为:利用AIGC技术实现5万数据资产数据项集合的FS-LDM十大主题不互斥二分类的智能化标注。
图1 FS-LDM十大主题
2.研究方案及结果
一般数据资产智能标注主要包括样本标注、分类模型训练、分类模型维护三大步骤,如图2所示。
图2 一般数据资产智能标注方案设计图
光大银行为解决训练样本人工标注工作量大、模型难以自适应数据增长的难题,对上述步骤进行优化,如图3所示。
图3 光大银行数据资产智能标注方案设计图
1)样本标注:
样本标注的整体流程如图4所示。
图4 样本标注整体流程
首先,使用聚类的方式(LDA主题模型)对待训练样本进行初步的分词聚类,得到对应簇的主题词的概率分布,如表1所示。
表1 LDA主题模型主题聚类结果
其次,结合各簇的关键主题词与专家经验,梳理形成基于FS-LDM分类体系的数据资产标注专家规则,如表2所示。
表2 专家的规则设计
最后,使用该规则与聚类后的主题簇进行匹配完成样本标注,部分样本数据如表3所示。
表3 样本数据展示(部分)
2)模型训练:
本文在模型训练时使用支持向量机、决策树、随机森林和神经网络等不同的词向量构建方式,同时考虑中文、英文名称文本数据进行分类器训练,基于此确认最佳的模型分类器。表4展示了不同模型在FS-LDM“事件”这一分类中的表现效果。
表4 不同分类器在“事件”分类下的效果
结合各分类模型效果评估结果,最终选择支持向量机(SVM)作为预测的算法,并使用词袋模型作为文本特征向量提取的方式,并仅对中文字段进行处理。
SVM+词袋模型在FS-LDM分类体系的效果如表5所示。从下表可知支持向量机与词袋模型的组合在处理大多数FS-LDM分类的任务中都能达到超0.9的查准率与查全率,在渠道主题的分类任务中准确率甚至达到1。整体看来模型效果较好。
表5 SVM+词袋模型在FS-LDM分类体系的效果
3)模型维护:
本文为解决“已经训练好的数据资产智能标注模型随着数据量的增加,将不再适用于标注新增的数据资产”这一难题,引入经验池的概念,并结合增量学习的方式,实现对模型的长期维护。经验池可利用数据资产管理平台使用者的反馈进行构建,并在一定的规则和制度下进行定期更新,从而实现对模型的长期维护,整体维护方案如图5所示。
图5 增量学习模型长期维护方案
智能化数据资产盘点实践思考
随着AIGC技术的高速发展,智能化数据资产运营是数字化转型的必然趋势,本文在限定条件下验证了基于AIGC技术的数据资产自动标注的可行性,并给出一种解决训练样本人工标注工作量大和模型不可持续问题的智能化数据资产盘点方法。后续将基于研究成果从以下几方面进行细化落地。
由于完善的全行标签体系复杂度和耦合性都较高,从易用性和可行性方面考虑,光大银行智能化盘点的标签体系计划从两方面设计:一方面是建设通用的标签体系,参考FS-LDM、企业级数据模型等覆盖全行各个业务领域,为全行数据资产打上通用普适性的标签;另一方面结合实际的业务需求,开展基于单一业务场景的标签设计,通过细化业务标签体规避通用性标签全而不深的问题。
专家规则的生成需要从多方面考虑,一方面收集各领域专家的经验;另一方面结合数据资产所属系统、所属部门等多维度信息,将之与训练样本分词聚类的结果进行融合匹配,最终归纳得到专家规则。
用户信息反馈必定伴随着无效信息或干扰信息,为保障增量学习模型的可靠有效,必须对经验池进行有效信息筛选,通过建立关键词词库,将用户反馈信息分词结果与关键词词库进行匹配,实现经验池关键信息的筛选。
目前,光大银行正持续开展盘点标签体系与专家规则的梳理,推进智能化的数据资产盘点走向深入。未来,当用户查询全行数据资产时,将依托数据资产管理平台,基于智能化的数据资产盘点成果,提供360°标签化数据资产画像,实现数据资产查询由“单点”到“全貌”的服务升级,做到数据资产查询“见一而知全貌”。
作者 | 林勇 秦旭昆
编辑 | 邵 茜
视觉 | 王梓卿